自动驾驶汽车广泛使用屋顶旋转的LIDAR传感器,推动了3D点序列实时处理的需求。但是,大多数激光雷达语义细分数据集和算法将这些收购分为$ 360^\ circ $框架,从而导致收购潜伏期与现实的实时应用程序和评估不符。我们通过两个关键贡献来解决这个问题。首先,我们介绍Helixnet,这是一个10亿美元的点数据集,具有细粒度的标签,时间戳和传感器旋转信息,可以准确评估分割算法的实时准备就绪。其次,我们提出了helix4d,这是一种专门设计用于旋转激光雷达点序列的紧凑而有效的时空变压器结构。 Helix4D在采集切片上运行,对应于传感器的全部旋转的一部分,从而大大降低了总延迟。我们介绍了Helixnet和Semantickitti上几种最先进模型的性能和实时准备的广泛基准。 Helix4D与最佳的分割算法达到准确性,而在延迟和型号$ 50 \ times $中,降低了$ 5 \ times $。代码和数据可在以下网址获得:https://romainloiseau.fr/helixnet
translated by 谷歌翻译
在本文中,我们将3D点云的古典表示作为线性形状模型。我们的主要洞察力是利用深度学习,代表一种形状的集合,作为低维线性形状模型的仿射变换。每个线性模型的特征在于形状原型,低维形状基础和两个神经网络。网络以输入点云作为输入,并在线性基础中预测形状的坐标和最能近似输入的仿射变换。使用单一的重建损耗来学习线性模型和神经网络的结束。我们方法的主要优点是,与近期学习基于特征的复杂形状表示的许多深度方法相比,我们的模型是显式的,并且在3D空间中发生每个操作。结果,我们的线性形状模型可以很容易地可视化和注释,并且可以在视觉上了解故障情况。虽然我们的主要目标是引入紧凑且可解释的形状收集表示,但我们表明它导致最新的最先进结果对几次射击分割。
translated by 谷歌翻译
While the problem of hallucinations in neural machine translation has long been recognized, so far the progress on its alleviation is very little. Indeed, recently it turned out that without artificially encouraging models to hallucinate, previously existing methods fall short and even the standard sequence log-probability is more informative. It means that characteristics internal to the model can give much more information than we expect, and before using external models and measures, we first need to ask: how far can we go if we use nothing but the translation model itself ? We propose to use a method that evaluates the percentage of the source contribution to a generated translation. Intuitively, hallucinations are translations "detached" from the source, hence they can be identified by low source contribution. This method improves detection accuracy for the most severe hallucinations by a factor of 2 and is able to alleviate hallucinations at test time on par with the previous best approach that relies on external models. Next, if we move away from internal model characteristics and allow external tools, we show that using sentence similarity from cross-lingual embeddings further improves these results.
translated by 谷歌翻译
Machine Learning models capable of handling the large datasets collected in the financial world can often become black boxes expensive to run. The quantum computing paradigm suggests new optimization techniques, that combined with classical algorithms, may deliver competitive, faster and more interpretable models. In this work we propose a quantum-enhanced machine learning solution for the prediction of credit rating downgrades, also known as fallen-angels forecasting in the financial risk management field. We implement this solution on a neutral atom Quantum Processing Unit with up to 60 qubits on a real-life dataset. We report competitive performances against the state-of-the-art Random Forest benchmark whilst our model achieves better interpretability and comparable training times. We examine how to improve performance in the near-term validating our ideas with Tensor Networks-based numerical simulations.
translated by 谷歌翻译
布尔网络(BNS)是离散的动力系统,具有应用于细胞行为建模的应用。在本文中,我们演示了如何使用软件玻璃体来详尽地识别扰动的组合,从而在其固定点和吸引子上实现属性。我们考虑标记属性,该属性指定某些组件固定为特定值。我们研究了标记重编程问题的4个变体:固定点的重编程,最小陷阱空间以及固定点和最小陷阱空间的重新编程,可从给定的初始配置以最宽松的更新模式到达。扰动包括将一组组件固定为固定值。他们可以摧毁并创建新的吸引者。在每种情况下,我们都会在其理论计算复杂性上给出一个上限,并使用Bonesis Python框架实现分辨率。最后,我们将重编程问题提升为Bonesis的支持,将重新编程的问题带到BNS的集合,从而深入了解可能的和普遍的重编程策略。本文可以进行交互执行和修改。
translated by 谷歌翻译
减少斑点并限制合成孔径雷达(SAR)图像中物理参数的变化通常是完全利用此类数据潜力的关键步骤。如今,深度学习方法产生了最新的现状,从而导致单位SAR修复。然而,现在经常可用巨大的多阶梯堆栈,并且可以有效利用以进一步提高图像质量。本文探讨了两种快速的策略,这些策略采用单像伪装算法,即SAR2SAR,在多个阶段的框架中。第一个是基于Quegan过滤器,并取代了SAR2SAR的局部反射率预估计。第二个使用SAR2SAR来抑制从“超级图像”的形式(即时间序列的时间算术平均值)形式的形式编码多个时间段信息的比率图像中抑制斑点。 Sentinel-1 GRD数据的实验结果表明,这两种多时间策略提供了改进的过滤结果,同时增加了有限的计算成本。
translated by 谷歌翻译
斑点过滤通常是分析合成孔径雷达(SAR)图像的先决条件。在单像伪装的领域取得了巨大进步。最新技术依靠深度神经网络来恢复SAR图像特有的各种结构和纹理。 SAR图像的时间序列的可用性提供了通过在同一区域结合不同斑点实现来改善斑点过滤的可能性。深度神经网络的监督培训需要无基真斑点图像。这样的图像只能通过某种平均形式,空间或时间整合间接获得,并且不完美。考虑到通过多阶段斑点滤波可以达到非常高质量的恢复的潜力,需要规避地面真相图像的局限性。我们将最新的自我监督训练策略扩展到了称为Merlin的单外观复杂SAR图像的情况,以进行多个颞滤波。这需要对空间和时间维度以及复杂幅度的真实组件和虚构组件之间的统计依赖性来源进行建模。使用模拟斑点上的数据集进行定量分析表明,当包括其他SAR图像时,斑点减少了明显改善。然后,将我们的方法应用于Terrasar-X图像的堆栈,并显示出优于竞争的多阶段斑点滤波方法。在$ \ href {https://gitlab.telecom-paris.fr/ring/multi-temporal-merlin/} {\ text {gitlab}} $上LTCI实验室,T \'El \'Ecom Paris Institut Polytechnique de Paris。
translated by 谷歌翻译
3D语义分割的最新作品建议通过使用专用网络处理每种模式并将学习的2D功能投射到3D点上,从而利用图像和点云之间的协同作用。合并大规模点云和图像会引起几个挑战,例如在点和像素之间构建映射,以及在多个视图之间汇总特征。当前方法需要网格重建或专门传感器来恢复闭塞,并使用启发式方法选择和汇总可用的图像。相比之下,我们提出了一个可端到端的可训练的多视图聚合模型,该模型利用3D点的观看条件从任意位置拍摄的图像中合并特征。我们的方法可以结合标准2D和3D网络,并优于在有色点云和混合2D/3D网络上运行的3D模型,而无需进行着色,网格融化或真实的深度图。我们为S3DIS(74.7 MIOU 6倍)和Kitti-360(58.3 MIOU)设置了大型室内/室外语义细分的新最先进的。我们的完整管道可以在https://github.com/drprojects/deepviewagg上访问,并且仅需要原始的3D扫描以及一组图像和姿势。
translated by 谷歌翻译
In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
translated by 谷歌翻译
我们提出了一种新的基于深入学习的方法,用于估计从空中平台捕获的3D点云估算植被层的占用。我们的模型预测了三个植被阶层的光栅占用地图:下层,中等和更高的地层。我们的培训方案允许我们的网络仅使用圆柱形图中聚合的值,这更容易产生比像素 - 明智的或点明智的注释。我们的方法在精度方面占据了手工制作和深度学习的基线,同时提供视觉和可解释的预测。我们沿着199农业地块的数据集提供了我们的方法的开源实现,以培训和评估占用回归算法。
translated by 谷歌翻译